BASE TTS
https://amazon-ltts-paper.com/Project
https://arxiv.org/abs/2402.08093BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data
大規模言語モデル(Large Language Models)の「創発的能力」は、データ量の増加に伴って学習されることが広く報告されているが、我々は、10k時間以上の学習で構築されたBASE TTS亜種が、文脈に適した韻律を可能にする高度なテキスト理解を示し始めることを示す。
emotion
https://amazon-ltts-paper.com/static/media/da786ad9d2b94dec0189.wav
Paralinguistics
https://amazon-ltts-paper.com/static/media/250ee29534f2d84ba8f8.wav
TTS
#Amazon_AGI